首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Apache SeaTunnel

    SeaTunnel × Gravitino:Schema URL 驱动的表结构自动感知方案

    SeaTunnel集成Gravitino元数据RestApi这个新动作有点酷》的文章,引起了小伙伴们的强烈反响,纷纷表示这真是个好东西啊! 2.Gravitino能力简介(与本功能相关部分)Gravitino是一个统一的元数据管理与访问服务,提供了标准化的RESTAPI,用于管理和暴露以下对象:Metalake(逻辑隔离单元)Catalog /同步任务中重复维护字段信息本次在SeaTunnel中引入的能力,正是:支持在Source的schema定义中,通过Gravitino提供的schema_url自动拉取表结构3.本地测试环境准备3.1准备 中Gravitino支持直连数据库,并会扫描库下所有表该表已经作为local-mysqlcatalog下的一个table被Gravitino管理。 Metalake:test_Metalake3.3表结构访问关系说明Gravitino中表结构可以通过如下RESTAPI访问:展开代码语言:TXTAI代码解释http://localhost:8090/

    10410编辑于 2026-03-20
  • 来自专栏深度学习与python

    7 个数据平台,1 套元数据体系,小米基于 Gravitino 的下一代资产管理实践

    本文重点介绍小米使用 Gravitino 的情况,为未来的工作规划与解决方案提供指引。 Gravitino 为这些挑战提供了解决方案 [2],并帮助打破数据孤岛。它旨在解决多云架构下的数据管理、治理和分析问题。 Gravitino 在小米数据平台中的位置 下图中 Gravitino 具有以下我们需要的特性(以绿色和黄色突出显示): 统一的元数据湖:作为一个统一的数据目录,它支持多种数据源、计算引擎和数据平台, 非表格数据管理架构 我们的目标是通过利用 Gravitino 建立 AI 资产管理能力,其核心技术在下图中概述。 参考链接: [1] https://github.com/datastrato/gravitino/ [2] https://datastrato.ai/blog/gravitino-unified-metadata-lake

    4.9K10编辑于 2024-04-12
  • 来自专栏数据社

    小米数据平台

    本文重点介绍小米使用 Gravitino 的情况,为未来的工作规划与解决方案提供指引。 Gravitino 为这些挑战提供了解决方案 [2],并帮助打破数据孤岛。它旨在解决多云架构下的数据管理、治理和分析问题。 Gravitino 在小米数据平台中的位置 下图中 Gravitino 具有以下我们需要的特性(以绿色和黄色突出显示): 统一的元数据湖:作为一个统一的数据目录,它支持多种数据源、计算引擎和数据平台,用于数据开发 非表格数据管理架构 我们的目标是通过利用 Gravitino 建立 AI 资产管理能力,其核心技术在下图中概述。 参考链接: [1] https://github.com/datastrato/gravitino/ [2] https://datastrato.ai/blog/gravitino-unified-metadata-lake

    86110编辑于 2024-04-10
  • 来自专栏Apache SeaTunnel

    SeaTunnel 集成 Gravitino 元数据 RestApi 这个新动作有点酷

    通过Gravitino的RESTAPI自动获取表结构和元数据,SeaTunnel用户无需再在连接器配置中手动定义冗长且复杂的Schema映射。 变更内容本PR增加了基于Gravitino的Catalog和Schema解析器,使SeaTunnel能够:通过RESTAPI从Gravitino查询表定义。自动获取列名、数据类型及相关属性。 直接根据Gravitino元数据构建SeaTunnel内部Schema。针对受支持的连接器,取消强制手动定义schema{fields{...}}的要求。 执行范围所有基于Gravitino的Schema解析和校验均在SeaTunnelEngine客户端完成(即在作业提交前)。这种设计确保了:在作业预检阶段即可发现无效或不兼容的Schema。 4.在连接器层级单独配置Gravitino如果全局没有配置元数据中心,也可以在具体的连接器(Connector)内部直接定义Gravitino

    14210编辑于 2026-01-22
  • 来自专栏Apache SeaTunnel

    Apache SeaTunnel 支持 Metalake 开发了!避免任务配置敏感信息暴露

    在项目的实现过程中,我也考虑到系统的扩展性,因此我设计了一个插件化接口,使得系统不仅可以与Apache Gravitino集成,还能支持其他数据目录服务如UnityCatalog或DataHub。 我在这个项目遇到的最大困难其实是在进行测试时,需要一个Gravitino来提供数据源数据,但是现版本的Gravitino的docker镜像运行时会出现问题,使得测试无法进行。 我是通过直接在测试镜像里下载了一个Gravitino来解决的。Q5: 您参与开源有多长时间了?喜欢开源吗?开源给你带来了哪些改变?这是我第一次参与开源社区。我感觉很喜欢开源。

    19710编辑于 2025-11-05
  • 来自专栏Apache SeaTunnel

    Apache SeaTunnel 2 月动态:过年也没闲着,社区都在忙些什么?

    GravitinoIntegration(#10402)引入Gravitino作为非关系型连接器的元数据服务,进一步增强了元数据管理能力。

    10310编辑于 2026-03-05
  • 来自专栏腾讯云TVP

    AI引领互联网行业变革 | 第十届中国行业互联网大会暨腾讯云TVP行业大使三周年庆典互联网专场圆满举办!

    史少锋强调了 AI 时代数据管理的重要性,并重点对 Datastrato 发起的开源项目 Gravitino 展开深入解读,讨论了数据治理的挑战和最佳实践。 Gravitino 项目旨在支持各种数据源并与不同的 AI 学习框架对接,可帮助企业统一管理异构数据,助力企业在数字化转型浪潮中更具竞争力。

    32510编辑于 2024-11-11
  • 来自专栏深度学习与python

    八年孤独,Iceberg 赢得世界

    Pinterest 通过引入 Apache Gravitino 统一 Catalog Service 来解决这些问题。 Gravitino 旨在提供企业级统一的元数据中心,可以认为是 Catalog of Catalogs,在 Iceberg 上,可以采用 Plugin 的模式对接后端各种常见的 Catalog Service 在这个基础上,Gravitino 提供了基于事件的扩展接口、丰富的访问 Metrics、统一的认证、细粒度的权限控制等通用能力,比如基于事件接口,Pinterest 可以做一些 Table 数据治理的优化 case 看,用上开源 Unity Catalog、Polaris 的基本没看到,Hive Catalog 和自研的 RESTful Catalog 占了大多数,新开源的 Catalog, 反而是 Gravitino 这种复用现有系统的模式对于存量 Iceberg 用户来说落地更快;但随着 Unity Catalog、Polaris 的逐步成熟,很多 Gravitino 的当前具备的能力会成为未来 Catalog

    87300编辑于 2025-06-08
  • 来自专栏QQ大数据团队的专栏

    从数据湖到元数据湖——TBDS新一代元数据湖管理

    第三个阶段可以叫做Unified Data Catalog(统一数据目录),处于刚刚起步阶段,以Unity Catalog和Gravitino为代表,面向结构化数据和非结构化数据、开放性、跨云跨地域的统一元数据服务 我们引入了Gravitino并且基于它在数据治理、数据权限等能力上做了大量的TBDS已有能力的合入优化,形成一个闭环、完整的系统。

    1.8K10编辑于 2024-09-26
  • 来自专栏QQ大数据团队的专栏

    TBDS Metaservice 引领新时代的元数据管理创新

    更强大的元数据: TBDS Metaservice 腾讯云 TBDS团队与 Apache Gravitino 社区深度合作,共同打造了TBDS Metaservice。 作为 Apache Gravitino 社区的核心贡献者,腾讯云TBDS 团队拥有社区 PMC(由项目关键人员组成的团队)和多名 Committer(对代码库有合入权限的开发者),将开源技术与腾讯云的实践相结合

    77010编辑于 2025-01-11
  • 来自专栏深度学习与python

    Lakehouse 如何重塑企业数据生态?

    闵文俊: 随着 Databricks 收购 Iceberg 背后的商业公司,以及 Snowflake 开源其元数据层 Polaris,去年还出现了元数据目录项目 Gravitino 的诞生。 此外,国内也有像 Gravitino 等发展较好的项目。在元数据管理方面,目前可以说是百花齐放,在统一标准的前体下,提供针对不同场景的强大功能,从而为用户提供更高的性价比。

    50810编辑于 2025-03-21
  • 来自专栏QQ大数据团队的专栏

    腾讯云TBDS在海量Iceberg的治理之路

    Flink、Trino、Hive 、SR等多种计算引擎,满足不同场景下的数据处理需求; 元数据服务层:包含 HiveMetastore Catalog Service、 Rest Catalog以及TBDS-Gravitino

    52210编辑于 2025-11-17
  • 来自专栏深度学习与python

    【万字长文】大模型开源开发全景与趋势解读

    这些项目将彼此竞争又互相借鉴,推动数据湖存储技术不断进化,为非结构化海量数据的可靠管理提供支撑; 元数据治理与数据目录方面,OpenMetadata 和 DataHub 稳居一线,功能日臻完善;与此同时,Apache Gravitino

    1K10编辑于 2025-06-08
  • Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高

    不仅支持了包括 Unity、Polaris、Gravitino、Glue 等多种 Iceberg Rest Catalog 后端实现,同时支持了 vended credentials 功能,能够更加安全

    45810编辑于 2025-09-24
  • 【泼天富贵】大模型开源开发全景与趋势解读

    为非结构化海量数据的可靠管理提供支撑;数据湖表格式项目 OpenRank 曲线变化元数据治理与数据目录方面,OpenMetadata 和 DataHub 稳居一线,功能日臻完善;与此同时,Apache Gravitino

    58310编辑于 2025-06-04
领券